[レポート] Amazon Augmented AI (Amazon A2I) を使った機械学習の推論結果レビュー Introducing Amazon Augmented AI for human review of ML predictions, featuring VidMob #AIM325-R #reinvent

AWS re:Invent 2019

#Amazon SageMaker

#Amazon Machine Learning

#機械学習

#AWS

yoshim

2019.12.08

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

最初に

こんにちはデータアナリティクス事業本部のyoshimです。
re:Invent2019にて行われた「Introducing Amazon Augmented AI for human review of ML predictions, featuring VidMob」という「Session」の内容についてご紹介します。

概要

本セッションの概要は下記の通りです。

Many machine learning (ML) applications require humans to review for labeling or moderation of nuanced content, which can result in low confidence predictions to ensure the correct results. But building human review systems can be time-consuming and expensive. Amazon Augmented AI (A2I) makes it easy to build and manage human reviews for ML applications through built-in workflows for common ML use cases, such as content moderation (with Amazon Rekognition) and text extraction (with Amazon Textract). You can create workflows for custom ML models or those built on Amazon SageMaker. In this session, learn about Amazon A2I and how to use it. Then hear from VidMob about how they plan to use Amazon A2I to quickly optimize and fine-tune video analytics models.

Google翻訳したものも載せておきます。

多くの機械学習（ML）アプリケーションでは、人間が微妙なコンテンツのラベリングまたはモデレーションを確認する必要があります。これにより、正確な結果を保証するための信頼性が低くなる可能性があります。しかし、人間によるレビューシステムの構築には時間がかかり、費用もかかります。 Amazon Augmented AI（A2I）を使用すると、コンテンツモデレーション（Amazon Rekognitionを使用）やテキスト抽出（Amazon Textractを使用）などの一般的なMLユースケース用の組み込みワークフローを使用して、MLアプリケーションの人間によるレビューを簡単に構築および管理できます。カスタムMLモデルまたはAmazon SageMaker上に構築されたMLモデルのワークフローを作成できます。このセッションでは、Amazon A2Iとその使用方法について学びます。その後、VidMobからAmazon A2Iを使用してビデオ分析モデルを迅速に最適化および微調整する方法について聞いてください。

機械学習系の新サービスであり、モデルの品質担保に関係しそうなサービスなので話を聞いてきました。

2.内容

Current State

最初に、「MLの現状の問題点」として、「学習時には良さそうなモデルでもデプロイ以降に推論結果が想定外になってしまったりするので、人間のレビューが必要となっている」、「人間がレビューすると、時間もコストもかかる」、と課題提議がなされました。
つまり、機械学習を利用するにあたってはまだまだ人手が必要であり、システムと人が協調する必要がある、ということです。

Humans + AI use cases

人間がまだしなくてはならないレビューの例として、ユーザーに公開する動画の「キーメッセージやサブタイトルは適切か」といった推論結果が適切なものなのか、といった点はまだ人が結果をレビューしていたりします。
これはとてもコストがかかるものの品質を担保するためには必要な工程です。

上記はあくまでも一例ですが、MLと人が協調するためには色々な課題があり、それらの課題として下記の4点を挙げていました。

データサイエンティスト、機械学習エンジニア、オペチームが必要となる
推論結果のレビュアーはたくさんの人が必要となる
レビュータスクを効率的に実施するためのソフトを作成する必要がある
高い精度を得ることが難しい

Introducing Amazon Augmented AI(A2I)

そこで「機械学習モデルの推論結果レビューを容易にする」ことを目的とした「Amazon Augmented AI(A2I)」のご紹介です。
（以下、A2I）

A2Iを使うことのメリットとして、下記のようなメリットを挙げていました。

人による推論結果レビューのワークフローを簡単＆迅速に作成＆実施できる
具体的なレビュー体制には3タイプ（下記に記載）あるため、ユースケースによって選択できる。
既存の自前のモデル開発と統合することができる

上記で挙げた「3タイプ」については、下記の通りの3タイプがあります。
この辺りは「Ground Truth」と似ていますね。

Amazon Mechanical Turk
Private
Vendors

A2Iの使い方はとても簡単で、基本的に「レビューのワークフローを定義」して「APIで呼び出す」だけとのことでした。

ワークフローの定義の例として、「Rekognition」での例が紹介されていました。
ここでは、どのようなデータをA2Iの処理対象にするのか、の条件を定義する例を紹介しています。

A2Iを利用するメリットについても紹介されています。
ここでは、下記の4点のメリットが言及されていました。

フルマネージドサービスである
「人がレビューするべきデータのみ」を対象としてラベリングができるので、コスト効率が良く、モデルの精度向上に繋げやすい
Rekognitionとtextractの特定のユースケースについてはUIテンプレートが事前に用意されている
自前のモデルにも利用できる

A2Iの紹介は以上で終わり、続いてA2Iの活用事例の紹介に移りました。

VidMob

ここで「VidMob」での活用事例の報告に移りました。

VidMobは「動画広告配信」の最適化のためのモデルを開発する必要がありました。

そのために「プライベート」なチームで「A2I」を利用し、「推論結果の信頼度(confidence)が低い」データを「A2I」で再評価し、その結果を用いてモデルを再学習して、モデルの精度を向上したそうです。

その結果、人がアノテーションする動画の数も減り（モデルの精度向上に寄与するデータに集中できた）、コストも削減できたそうです。
何より凄いのは、これを2週間で実現したことです。

3.まとめ

モデルの推論を通してconfidenceが低いデータに専念してアノテーションして再学習、というのは効率よくモデルの品質を担保することに繋がりそうで、いいやり方だな、と思いました。
データのアノテーション然り、評価についても人手がかかる部分なので、このようなサービスを利用して効率よくやれると運用も楽になるのかと思います。